查看原文
其他

腾讯 MimicMotion:基于置信度姿态引导的高质量人体运动视频生成

renee创业狗 Renee 创业随笔
2024-10-09
MimicMotion 能够生成任意长度的高质量视频,并模仿特定的运动引导。类似的项目之前介绍过很多:

本项目亮点:

  • 引入了置信度姿态引导,确保了高帧质量和时间连续性。
  • 引入了基于姿态置信度的区域损失放大,大大减少了图像失真。
  • 为了生成长且平滑的视频,提出了一种渐进式潜在融合策略。

Showcases

  • 动作
  • 跳舞
  • 说话

试用

可以在 Replicate - https://replicate.com/zsxkib/mimic-motion 上运行 MimicMotion 进行试用。


方法

MimicMotion 结合了图像到视频的扩散模型和新颖的置信度姿态引导。模型的可训练组件包括一个时空 U-Net 和一个用于引入姿态序列作为条件的 PoseNet。置信度姿态引导的关键特性包括:

  1. 姿态序列伴随着关键点置信度评分,使模型能够根据评分自适应地调整姿态引导的影响。
  2. 高置信度的区域在损失函数中赋予更大的权重,增强其在训练中的影响。

置信度姿态引导

我们利用姿态引导帧的亮度来表示姿态估计的置信度。

这种设计增强了生成对错误引导信号的鲁棒性(姿态 1&2),并提供了可见性提示以解决姿态模糊问题(姿态 3)。

特定区域的手部细化

我们实施了一种基于置信度阈值生成掩码的策略。对于置信度评分超过预设阈值的区域,我们取消掩码,从而识别出可靠的区域。在计算视频扩散模型的损失时,相应于未遮蔽区域的损失值会被放大,使其在模型训练中比其他遮蔽区域更有效。

在相同的参考图像和姿态引导下,进行手部增强训练能够显著减少手部失真并提升视觉效果。

渐进式潜在融合以实现时间平滑

我们提出了一种渐进式的方法来生成具有时间平滑效果的长视频。在每个去噪步骤中,视频片段首先在训练模型的条件下分别去噪,参考相同的图像和相应的姿态子序列。在每个去噪步骤中,图中用虚线框标记的重叠帧根据它们的位置逐步融合。

渐进式潜在融合实现了平滑过渡,避免了视频片段边界的突然变化,从而增强了长视频生成的整体视觉时间一致性。

对比

定性评估

定量评估

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存